Fax enis pap: 33 Bl 4B 67 95 67JL0CH 

ii 



le 12/86/99, 



A4 NORM Pg: 4/24 



10 



20 



25 



30 



i 




■ -EXPRESS tm 

Date of D3po3it_ . 

hereby cerCiyilrUhiypaper or .-. 
tong dsposi'-.d wth ths United Sf.ates PosU 
SsTvice-EKprf^c Md! Post O'^w ?o 

PROCE0k D'ARCHIVAGE I'E TEXTES El^iiegRE^shing^^ 
RECHERCl^E, PARMI LES TEXTES ARCflHyES, DE CEUX QUI 



SONT IfPERTINENTS A L'EGARD 



QUESTION 



IS 



Avec les moj^ens modernes de traitement de idonn6es, d'une rare 
permanence, lip monde de la documentation a cjannu r6cemment une 
expansion conld^ble. Au fur et a njiesure que les bpsoins ou les envies de 
connaissances !i des individus augnentent, les tionn6es elles-memes 
augmentent 6g|ilement, peut-etre davantage enc0rc. |x nombre d'ouvi-ages, 
revues, jouma^bs, et autres publicat ons de toi|ites fortes, mSme sur une 
question pr6ei^ie, ne fait que croitre aussi. Le stbcljage ou I'ai-chivage dc 
donndes est def enu une tachc diffici: e. A I'invepe, ^'extraction de donnees 
d'un lot stockd jp'est, aujourd'hui, pas plus aise. ; 

On coimait la lolution des mots cidii a ce double pjrobl^me. Compte tenu 
des tailles des||banques de donnees, c'est une polutjon qui, bien souvent, 
n'est plus appr|i)pri6e, I'interrogation d'un mot c\6 fojirnissant ^ la fois trop 
ct pas assez d|^ documents, en raispn des hoibon>fmies (documents non 
pertinents) et djbs synonymies non prises en compte. j 
J I 
De microscoj'pjques, I'analyse et la recherche doivent devenir 
macroscopiqueb et c'est ce que la deniandercsse a cherch6 k offrir. pu mot, 
les documentajjistes et archivistes doi vent passer au :oncept, 4 I'idec, c'est- 
^i-dire k la plurijditi, la combinaison, ('association de pots. 

L'invention cqpiceme aussi bien le processus d'ajvalyse et d'archivage- 
stockage de tej^tes, que la recherchd, Vextraction dej textes archives. Bref, 
l'invention visjf i proposer des outi, 
connaissances.li 



s d'ameliOTatioiji de I'organisation des 



L'invention coi|iceme tout d'abord uiji proc6d6 d'arcljivage d'un texie scion 

lequel: ;| j , 

- on cr6e dansljun repere conceptuel multidimensioijjiel un dictiormairc de 

35 mots, ii i . , 

- on compare ijchaque mot conceptuel d'au moins «ine portion du texte a 
archiver i ceuip du dictionnaire pour ddterminer la pjosition de ce mot dans 

ledit rep^e et !i j 
I - on d^terminejjla r^sultaiite des positions de tous lesjmots conceptuels de la 
40 I portion de jjexte a archiver pjour daermine|: la position d'une 
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conceptualisa^p 
cette position 



Par Ic terme "i 
A-dire le mot,i 
tbmiant une 
cardiaque'\ 



10 ; correspondent 



►n globale de la portiJn de texte dans jledit rep6re et archiver 



inot" 



il faut 

hi sens propre du terrhe, 
I; <pression semantique 



naturellenient entendre Vupit^ linguistique, c'est- 
mais 6gaien)ent le groupe de mots 
unitaire, comiie par exemple "crise 



Les axes du fepere de rinvention. 



en 



^ux divers concepts e> 



15 I 



Un mot, dan^ 
vectcur s * 
coordonn6es,i 
poids relatifs 



le pToc6d6 de rinvetition, 
6teri(|ant depuis I'origine 
ur les axes du 
dies divers concepts 



Finalement, le 
mots d'un text^ 
I'ensemble d\i 



20 i 



Avantageusci|rent, 
repere, de toil 
chaque positibp 
le texte et sorj 



25 



Avantageusejr 
mots concep!t|ieIs 
positioas par 



iin 



30 ' 



35 t 



L'invention 
textes archiV' 
question, danl! 

- comme poiii 
conceptuel 
question, pai| 
conceptuels 

- on compart 
positions hopjiologues 
d'entre elles, 



f 

JUN-10-1999 03=23 



rcp&'e 



proced6 d'archivage 
et i en calculer la 
exte dans un repere d 



pour determiner 
les mots conceptue. 



nombrc 6gal al celui des dimensions, 
primes dans le ^ictionnaire. 



^ est d6fin^ pai' un point, ou un 
du repfere jusqji'a ce point, dont les 
correspondeiit respectivement aux 
attich6sicemot ; 



. le l'invention cbnsiste k vectoriser les 
rdsultante concepfuelle representative dc 
' one pluralite de [concepts. 



la r^sultante jies positions, dans le 
is de la portion! de texte i archiver, i 
de mot dans le repcf e, on associe (f abord sa position dans 
:61e syntaxique. 



ent encore, pour 
de la portion dc 
algorithme de complosition 



da^rminer la rSpultant^ ^es positions des 
texte k ai-chiyer, on multiplexe ces 



on 

line 



Ctcfnceme aussi un proc6d6 
s selon le proc6d6 
lequel; 

Tarchivage de texte, 
ii^ultidimcnsiormel d 
i^termination de la 
la question et 
la position de la cone 
des textes 
ic onespondant i un tex 



„ de recherche! parmi une plurality de 
i-dessus, de oeux qui traitent dune 



determine laj position dans le rep&re 
luiic conceptualisation globale de la 
r^sultante des positions de tous les mots 

'cptualisation globale de la question aux 
iirchiv6s, pour tretenir au moins Tunc 
te recherche. 
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Avantagcuscitijnt 
globales de \^ 



texte, unc 
texte. 



on. compare 14s 
question et des textes 
distice entre les deux positions 



positions c|es conceptualisations 
archives en d6l^inant, pour chaque 
respectivjes de la question et du 



la distance ditcnhinto entre deiix positions est non 



De pr^fdrencc, 
euclidiennc. 

L'invention sp -a mieux comprise i I'aide de ;la djsscription suivante de 
diffSrents moces de realisation du|proc6d6 dfarch|ivage de textes et du 
• Hes archives, de iceux qui traitent d'une 



proc6d6 de recherche, parmi les texl 



Par souci de 
I'exemple qui 
d.'6cole, 



(jlarte, et de fa^on i 
/a maintenant Stre 
extrgitjement simplifi6. 



archivage de textes va d'abord Stre explicite. 



Le proc6d6 d'; 

1- Procfedd d^^rchiva pe de textes 



l.l-Craatlojo : 



lai 



D'embl^e, on 
linguistique, c 
groupe de mots 
exemple "cris( 



iin 



ippelle que par le terrine 
est-i-dire aussi bien 

formant une 
cardiaque", "carte 



norrae assd 
on entend di 
scalaire d^fini) 
definition, les 
lin^aire desq^ 



Dans I'exi 
dimension 
euclidienne 



cmi le 



question, en r^ftoce i la figure unjique annexce q^i repr6sente un repfire 
conceptuel mu tidimensionnel. 

^e comprendr^ au mieux rinveniion, 
dibrit est un exei^ple didactique, un cas 



un dictionnai re de m|)ts 



Soit un espace 
un, que 1 on nunit d'un repfere con 



"mot", on enjtend d6signer une unitd 
mot, au sensipropre du termc, qu'un 
exprejssion s^mantiqije unitaire, comme par 
d'i&entit6", "sectei|r secondaire", etc.. 



vectoriel de dimensi(|)n n, n 6tartt unjentier naturel supdrieur 

^ eptuel 9?, d'un produit scalaire et d'une 

On rend le repfere )r orthonorm6. par rep6ie orthonormd, 
igner une base de n tecteurs orthodonaux (pour le produit 
et de norme egalfe i un (pourja norme d6fmie). Par 
vectewrs de la basfe sont des; yedtcurs par combinaison 
;ls tous les vecteurs I'espace vectoijiel peuvent etre d6finis. 



didactique de la 
trdis et muni du 
Bi sociee, ainsi que d'un 



description, I'ejspace vectoriel est de 
prod(iit sciairo cu(}lidien et de la norme 
rep^re conceptiiel 51, reprdsente sur la 
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figure* comporianl trois axes Ai, A: 
de base Ui,"u2, t^s dont les coordome^s 
0.0),(0, l,b)et(0, 0, 1). 



S : 



D'emblee, on uotera quHine positioi[ dans le rep^rcj 9^ est d6finie par m 



triplet de coorc onn6es respectivemei 



Aj portant resp^cti vement 
respectives 



dans 



les vecteurs 
lerep^re9? sont(l, 



t suivant ks axts A,, Az et A3, et qu'a 



chaque position dans le repere correspond i^i vecteur de memes 
coordonn6es, setendant depuis une (^rigine 0 d^ reijere 9^. Par la suite, on 
confondra don\ les termes "position"! et "vecteur". | 

Par ddfinition, lie produit scalaire euiidicn de deux vjecteurs X et?est 6g^ 
a la somme dei; produits des coordorn^es homologu^s des vecteurs X et Y. 
La formule m|th6matique pour le cjalcul du produif scalaire euchdien est 
done la suivan 



15 : 



- <X,7> repr^ 



20 



-yv, . - ,^,,*v$ente le produit scalaiile de X et de Y ^t 
Xi et yi repi6sentent les coordon^ides respectives du vecteur X et du 
vecteur Y sui4mt I'axe Aj, j f j „ 

avec n repr^s^ntant la dimension (le I'espace vect^nel, egal i U-ois dans 
'exemplc de 1^ description. 



r 



La norme eu|:lidieraie iSlI du vecteur X est |6finie par la formule 
suivante: 



25 



30 



L'unitd de c 
dictionnaire. 

- I'unit^ de 1'; 

- runit6 de 1'; 

- I'unit6 de 1" 



;haiqu 



a>:e 
ale 



La physique, 
i-cpire conce] 



35 i 



a?:e 



e axe correspond ^ilun concept, un^ idee exprim6e dans le 

.n I'espece: 
Ai correspond au c(|>ncept de la physique, 
A2 correspond au ctfncept de V^iat llquide et 
A3 correspond au ccpncept de Timprlmerie. 



, l'6tat liquide et I'imp^imerie sont doijc les trois concepts du 
Xel % correspondantjaux trois dimenpions du rep^e iR. 
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5 ; Par les termes 



15 



Afin de cr6er;li5 diclionnaire de mots, on prend, paniii les mots du langage, 
les mots conc^Wels et, pour chacui^ de ces mots, oiji determine sa position 
dans le repire conceptuel 5?. 



"mot conceptuel", on 



entend d^signejr un mot important du 



10 i 



texte, charge |<je sens, exprimant uni ou plusieurs id6es et contribuant par 
consequent, £ia9on majeure, k doijner au texte soi sens global. Bref, un 
mot conceptual est un mot susceptible de faire rei'erence k au moins un 
concept du rep^e conceptuel | 

Par souci de^ilart^, on cr6e ici un dictionnairc contenant les seuls mots 
n6cessaires km compr6hension de Texemple particulier de la description, k 
savoir les moi suivants: corps, plonger, liquide, sibir, pouss6e, vertical, 
police, penger,fnoyade, style, fluide, |d6e, manquer, ^nteanique. 



On sait qu^ujr^ 
d^temiiner leis 
contexte du t^xte 



ens dans lequel ce m^t est employ^ qans un texte, suivant le 



20 



25 i 



Pour inlToduif^ 
les sens possjl; 
91 auxquels cci 
lequel il est 
position dans 
chaque mot 
ce mot. Dansj 
repr6sent6c pat 



30 i 



Afm d'illustrpr 
details rintrojij 



35 



(Edition les 
corps mal6ri^), 
lettre" s'entert^ 



mot peut avoir plu 



sieurs sensf et 



on peut gdneralcment 



chacun de ces mots 
les du mot, on en deduit 
mot est susceptible d<^ 
Employe, et, suivant 
e repej'e conceptuel 
ccrrespondent aux poid^ 
e dictionnaire, les mots 
un triplet de coordorpiees 



on 



dans le 

tous les corlcepts 
faire rcftr^nce 
oes concepts, 
iR. Les 

relatifs des di\ 
sont chacun 
dans le n 



cette 6tape de 
ction de quelques 



mots 



Prenons d'aboH 1© mot "corps" 



que le mot "ccirps" peut, suivant son 



de la physique 
ses sens, le cb: 



soit au concept de Tiinprimeiie. Bn 
ps ne fait r6f6rence ai concept de 1 



dictionrjaire, on recherche tous 
relatifs au repfere 
selon le contexte dans 
attribue au mot une 
coordorinees de la position de 
ers concepts attach6s k 
associes k une position 
91. 



ep6re 



du 

particuliers 



D'apr^s le diction: 



corps 



laire "Le Petit Robert" 
peut designer "tout 
physiqjues", et le "corps d'une 
On en deduit 
emploi, faire rjftrence soit au concept 
revanche, dans aucun de 
liquide. Le mot corps 

est ainsi suscejptible de faire r^ftrerjce au concept &c la physique (axe A|) 



ctionnaires Le Robert, 1993), un 
caract6ris6 par ses pi opri^t^s 
de "la dimension duji cai^ct^re d'impnmerie" 



cr^atipn du dictiomiajire, explicitons plus en 

le dictionnaire. 



dans 
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20 



ainsi qu'd celd de riraprinierie (axe 
dans le reperc ^:onceptuel 91, luie position ayant pour 



Prenons encott: 
dans un liquid^ 
susceptible de 
fait r^fdrence^ 
ou k celui de 
"plonger" une 
conceptuel: 91. 



le mot "plonger" qui. peut notanrociit signifier "faire enti'er 
d*apr^s le dictionnaii'e Le Petit Robert. Ce mot est done 
faire r6f6rence au. concept de Tdtat lijuide (axe A2) mais ne 
ians aucun de ses sens, au concept de la physique (axe AO 
rimprimerie (axe A3). Par cons^quejit, on attribue au mot 
position ayant pour ^oordoimees (0[ 1, 0) dans le repere 



Le tableau I contient les coordonn^es des poditiorjs de tous les mots du 
dictionnaire, d:termin6es suivant lesi 6tapes que ronj vicnt de detaiiler pour 
deux exemples particuliers» j 





( 


>oordonii^s 


Mots 




Vi 


A2 


As 


corps 




1 


0 


1 


plonger 




0 


1. 


0 


liquide 




1 


1 


0 


subii 




0 


0 


0 


pouss6e 




1 


0 


0 


vertical 




0 


0 


0 


police 




0 


0 


1 


penser 




0 


0 


0 


noyade 




0 


1 


0 


style 




0 


0 


1 


fluide 




1 


1 


0 


idee 




0 


0 


0 


manquer 




0 


0 


0 


m6canique 




1 


0 


0 
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coordonn6es(l, 0, 1), 
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i I 

1.2' Concepd ^H^if^yipn pl9l?a|e des testes k archiver 



Dans I'exempjl 



archiver qui sbpt les suivants: 



; didactique de la description, on dispose de trois textes k 



to 



corps plong^ dans un 



Texte 2 : "La Mce pense i une noyade." 



Texte3 : "Le 



Dans me 6ta^i 
texte k aixhiv^; 



1^; pr^alable, on precede a une analysd syntaxique de chaque 
afm d'en extraire les ^nots conceptuejs. 



15 



Gr§ce k I'extrk' 



jtion des mots conceptuels, on s'affrajichit, en vue de I'^tape 
suivante de "\[<:ctorisation" du texte, des mots contrilpuant de fa^on mineure 

teis que notambient les prononis, les 



k donner au [( 



articles, les pij^ positions, etc. 



Pour illustreij 



20 



analyse de cei ^exte et extraction des 



concept-ucls sji 



On transfoimb 
conjugu^s, \e\ 
nonfl^chie. 



25 



30 I 



35 



conceptuels 4< 



e est fluide niais les 



liquidc subit unjj poussee verticale." 



id6es manquentj" 



xte son sens global. 



vants: corps, plong6. 



cette 6tape d'extractlon, appliquonsj-la au texte I. Aprfes 



mots conceptuels, on obtient les mots 
iquide, subit, poussee et verticale. 



ensuite les mots oonieptuels fl6chis;(c'est-i-dire les verbes 
adjectifs accord6s, les noms au pluriel, etc.), dans leur forme 

ceptuels extraits des textes 1, 2 et! 3, et ^ventuellement 



i Les mots coh^-jr - -i 

' transform6s djajas leur forme non fl6c|hie, sont r6pertdri6s dans le tableau 2. 
Tableau 2 



Textes 


Mojs 


extraits 


! 


1 


corfls 


, plonger, liquide, sub 


ir, pouss6e, vertical 


2 


poUp 


5, penser, noyade 




3 


styli, 


fluide, idie, manquer 


, m^canique j 



ceux. du dictiiorinaire dans lequel 
position dansile repdre 



Pour chaque ^dxte i archiver, on determine la positijon de chacun des mots 



ce texte, en comparant chacun de (^es mots conceptuels k 



es mots sont dhacun associ6s a une 
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10 



15 



20 



25 



En cas d" 
dictionnaire, 
associie ^ ce 
Les positions 
3 sont celles 



iderftit^ entre un mot <[:onceptuel i du textc et un mot du 
lit dans le dictionhaire la positicn, dans Ic rep^re % 
et on attribue cette position au m^t conceptuel du texte. 
i d6temun6es des ijiots conceplueH extraits des textes I k 
ittHiqu6es dans le tablea(i 1 , ! 



on 

uliot 



ainsi 



Puis, pour cha([ue texte k archiver, oji determine la ifesultante des positions 
dans le rep^re k de tous les mots cojiceptuels du texjte, en muUiplcxant ces 
positions par u\\ algorithme de comijosition. Celui-ci consiste ici a faire la 
somme vectoribUe des positions dejtous les rtots conceptuels du texte i 
archiver, c'estli-dire i additionnef les cooiidoniites homologues des 
positions des n ois concepliiels du teite. 

Puis on norma ise la r^sultante des |)ositions de tous mots conceptuels du 
texte k arcliiv^k et on obtient alo^s la position cfune conceptualisation 
globale de ce ti^xte dans le repfere ! I 

un vecteur est norm^lis^ lorsqub sajnorme est 6gale k un. 
I "normaliser" un vecjteur consiste dojic a diviser ce vecteur 



Par definition, 
L*6tapc visant 
par sa propre 



n^rme. 



La formule 



ijiath^matique pour la d^termiiiation de la position de 
conceptualisation globale du texte d'jndice j est done} 



■ ■ f . . 

- gjj repr6sent<j le vecteur du mot coi^ceptuel d'iiidic^' i du texte d'indice j, 

- '^repr^sente la resultante des pos)ti< 



texte d'in dice j 



-Ji represente Ip vecteur de conceptu;ilisation glpbalei du texte d'indice j, 
avec i entier nbturel variant de 1 i N-j (Nj repr^sentant le nombrc total de 



slsdu texte d'indice j) 



et 



tions de toius ids mots conceptuels du 



et j entier natuijel variant dc 1 a 3, 

I 

^ obale du t^xte ^.'indice j constitue une 
vectorieUe, dans le rcpere conce|ptue| SR, du sens global du 



30 : motsconceptu 



I Le vecteur^ id b conceptualisation g 

i reprdsertation 

I texte d'indice j 

35 ': 
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i Les coordonn^s 
• textes 1, 2 et3; 



s : TableauJ 



20 



25 



30 



Textej 



Texle 1 



Texte 2 



Tcxte 3 



Enfin, on arc^i 
et3. 



i7JL0 

4 
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des vecteurs ti, ^, tj de cono 
respectivement, sont t^pertori^es dan 



I 



R6sultante T 



J 



(3,2,1) 



(0,1.1) 



(2, 1, 1) 



'ecteur de concjeptualisation 



'i 



eptbalisation globale des 
$ le tableau 3. 



(0.802. 0.53 5. 0.267) 



(0, 0.707, 



0.707) 



WT6^5j_a408) 



ve les positions de conceptualisation 



10 : 



15 i 



Wftcherch^jpt^r^i !«> plurality d i textes archlv^ , c^K umUrMssi 

d'une q uestii^i i 

archives (textes 1 , 2 et 



On souhaite liiaintenant rechercher, (jarmi les textes 
3), les textes qui traitent d'une 
mecanique des fluides". 



globale des textes 1, 2 



question d6termin6e qui est ici "la 
analyse syntaxique des 



Comnw pour; Varchivage de texte, ok proc^de iune . 
mots de la qi estion afin d'en extriire les mots, c(t>nceptuels qui sont ici 
"mecanique" 'effluide". | ' 

Dans le cas oii la question compreAdiait des mots conceptuels fl6cliis, on 
pourrait tran^f Drmer ces mots dans hm forme non flidchie. 

On compare chacun des mots conceptuels de 1^ question a ceux du 
dictionnaiie pn de determiner leut position d|ans ' ' 
Les positions respectives du mot "mdcanique" el 
indiqudes dani ; le tableau 1 . j 



e rep^e conceptuel iR. 
' du mot "fluide" sont 



Puis on ddtermine la risultante 



conceptuels 'de la question par I'a 



Q des positions de tous les mois 



conceptuels (le la question, en multiplexant l<|s positions des mots 
* ' " gorithme de composition utilise pour 
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I'archivage de textes. Enfin, on 
vecteur q de cxinceptualisation globi 



norifialise la lisultajnte Q afin d'obtenir le 
aie de la question^ 



Les vecteurs Q et q ont 
(0.894, 0.447,0). 



respectiv(nnent pour cocjrdonn^es (2, I, 0) et 



10 



Puis, on compiure la position de la 
aux positions homologues, de conce 
pour retenir iiu moins I'une d'enltre 
recherchd. Cetjie comparaison consis 
d'indice j (avec j entier naturel 6g?i 
deux positionisTespectives de la question 



_iceptualisatior^ globale de la question 
i^tualisalioniglotiale, des textes archives 
elles, corr^spondant a un texte 
e i calculer, poiir dhaque texte archiv6 
i 1, 2 ou:3), |a distance Dj entre les 
et du texte. : 



IS 



La distance EJjl entre le vecteur q de 
et le vecteur i^-de conceptualisation 
ici calculdc i Haide de la formule sui^ante 



c onceptuali?atioi globale de la question 
globale du texlle archiv6 d'indice j est 



On souligiierd que le calcul de la di 
le vecteurfdu; texte d'indice j et le 



20 



Le calcul de iji distance Dj entre les 
de chacuji des'' textes archives d'i 
d'6valuer la rejssemblance entre la 



25 



Les r6sultats <3e ces calculs de distance sont indiqu^^ dans le tableau 4 



I Tableau 4 



30 





Distance Dj 




texte J / quesitlon 


0, 044 




texte 2 / quftsiklon 


0,688 




texte 3 / ques tlon 


0,088 





disjtance Dj utilise je produit scalaire entre 
vecteur ^de^ la question (<tj,q>). 



positions respejclives de la question et 
rndice j (avec j 6^al a 1, 2 ou 3) permet 
question et cliacuj|i des textes archives. 



D'apr^s ces rtisultats, le texte le plus 
distance Dj eist la plus faible, est 
rdalitd. 



pertinent, quiiest celui pour lequel la 
e texte I, ce qjii correspond bien a la 
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30 



On souligner^ que le texte 1 est 
malgr^ la pr^^ence dans ce dernier 



Dans la descjiplion qui precMe, le 
d'un texte 6uj(ie la question, est la 
tous les mot^ conceptuels, de ce 
6galement enksager de d6fimr le veiteur 
texte ou d'un0 question, comme la 
de tous les mpiis conceptuels, de ce 



La foimule p<)iir le calcul de la 
la question etld'un texte archive d' 

1 Ml 

wm 



ddj'tcrmine plus pcjrtinent que le texte 3, 
di terme "fluide"] 

leptualisalion globale, 
Tiormjalisde des positions de 
question. On pourrait 
iptjualisation globale, d*un 
normalis6e des positions 
question. 



vecteur de coric^ 
resultante 
:exte ou dp la 
de conce; 
rl^sultante non 
ou de cjette 



t(^xte I 



distaiice Dj entre les 
'inqicej serait alon 



])Ositions respectives de 
la suivante: 



15 j 



' O represent^ le vecteur de conce 
■ ^repr^sente le vecteur de con 



jptualisation gjoba^ de la question et 
Lceptjalisation giobaje du texte d'indice j. 



En fiait, dan^ cc cas, on normalise 
conceptuels par le calcul de la 
conceptualisation globale du texte e 



la resultante 
dist^ce entre les 
de la question. 



25 : 



Dans une vaiiante, ne difftrant de 
que par ce Iqui va raaintcnant etfe 
multidimensilcnnel d'un produit scjalaire 
associ6e nonicuclidienne. 



On d^finit lejprodiiit scalaire non i 
foiTnulc suiv^ite: 



euclidien, de Ideux vecteurs X et Y, par la 



On d6finit lanonne associ6e du vecteur X par foijmule suivante: 



(kes positions des mots 
positions respectives de 



a descriplipn p]'6c6demment explicitde 
d6crit, c^n niunit Tespace vectoriel 
non! euqlidien et d'une norme 
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15 



20 



25 



con 



les coordonji^es 
suiviint Taxe Ai du rep^e 
in coefficient de pondje: 
laturel variant de 1 



- Xj et repijesentcnt 
vccteur Y 

- ki represente 
avec i cnticr 
Tcspace vectorjel 



On fixe le coi 
du concept 



exfrimd 



variante, pour rechercher, 
)ertinents a l*6gard 
conceptua isations globales de 
pour chaque texte, 
la question et du tex 
;it6e dans le premiei 
et en utilisant le 



Dans cette 
ceux qui sont 
des 

determinant, 
respective^ 
distance expli 
recherche 
defini ci-dessu 



d6ci;it 



Dans un deuxipnie 
differant du 
maintenant 6tir 
Pgi, dans le 
position dans 
afin de former 
Pt, Rsynt) conl|nant 
dans le texte e 



i Pour chaque t 

! mots concepti^iels 

30 : consptuelsdu 

i position de la 



I Pour recherclipr, 

I ceux qui 

35 conceptualisatjion 
des textes, on 

• la question en 

; contenant la 

I question et 

40 1 triplets par Tal 



respectiye^ 
ceptuel et 
oration, relatif a 
k n, n represciitant 



cient ki relatif a I'ax^ 
par cet axe dans 



d'indice i en fdnction de I'importance 
[e rep^re concefituel. 



tep^re 



d'une question, on 



la 



du vccteur iT et du 



I'axe Ai, 

la dimension de 



parmi une plui"alit6 de textes archives, 



compare les positions 
a question et des textes archives, en 
distance ent e les deux positions 
:e, i I'aide de li formule de calcul de 
mode de r^alfsation du proc6d6 de 
non euclidien tel que 



3roduit seal aire 



mode de realisation du proc6d6 d 
Dremier mode de realisation d6crii; 
I d6crit, pour chaque texte k archiver, 
% de chaque mot concepmel 
e texte Pt ainsi que $on r61e syntaxique 
, pour chaque mot coAcepmel extrait 
la position Pgi ,d|ans le rep6re 91 
son r61e syntaxique ijUyiu- 

;xte k archiver, on determine la r6sujtante 

du texte, en muMplexant les tri 
texte par un algorithine de composition 
:onceptualisation glob ale de ce texte 



archivage de textes, ne 
que pai- ce qui va 
on associe a la position 
de ce texte d'abord sa 
Rsyni dans le texte, 
iu texte, un triplet (Pm, 
du mot, sa position Pt 



des positions des 
plets de tous les mots 
, afm de determiner la 



parmi les textes ai chives suivant oe proc6de d'archivage, 
tr4itent d'une questioi), on determine la position de la 
globale de la quesion. Pour cela, fcomme pour Tarchivage 
determine la res.ultanle des positions 
associant chaque moi conceptuel de 



position dc cc mot cans le rep^re sa position dans la 



son 



r61e syntaxique dans la question 
gorithme de composition utilise pour 



de mots conceptuels de 
la question k un triplet 



et cn multiplexant ces 
'archivage. 
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Puis, on corai^ire 
I aux positions 
I ces posjtionsJ(>n 
I archives et, 
j question. 



Dans un trois: 
diff^rant du 
maintenant 
Chaque segni^nt 
concq)tucls, iic 



mode de realisatic n du proc6d6 d'brchivage de textes, ne 
Jremiei- mode de r6tisation d^crit| que par ce qui va 
d6crit, on d6coupe le texte en une |phiralit6 de segments. 

comprend initial^ent un iiomtre predefmi de mots 
cinq, voisins Tun de [autre dans le tekte. 



Deux segment 
texte ou s^paij^ 



On d6termin4 
concepluels (j 
r^sultante de^ 
multiplexant f 
premier mode 
normalise ce^t 
globalc du se: 



p^s 



30 



On compare ^suitc 
des segments! 
segments 
conceptualiss^: 
distance ex] 
recherche. 



35 ! 



Si la distance 
deux scgmen^; 
si ces deux s^^jnents 
en formant 
conceptualisafd 



I En revanche, 
\ de deux segnjidnts 



13 



la position de la ccjnceptualisationjglobale de la question 
mologues des textes |archiv6s, en calpulant la distance entre 
n en ddduit la resseihblance entre I4 question et les textes 
consequent, les textis les plus pertijients qui traitent de la 



sont dits "voisins" fci lorsqu'ils sofit cdte a c6te dans le 
IHin de I'autre uniqu^ment par des mjts non conceptuels. 



les positions, dans 10 rep6re conceptuel, de tous les mots 
I texte. Pour chaque! segment de t^te, on d6lermine la 
positions de tous les mots concepti^ls de ce segment, en 
( positions par I'algclrithme de com|)osition utilise dans le 
de realisation du ^roced^ d'arch^age d6crit. Puis on 
; rdsultante afin d'objtenir la poBitio(i de conceptualisation 
lent dans le repire copceptuel. . \ 



deux h deux les positions de copceptualisation globale 
iroisins dans le texte, en calculant, ifour chaque couple de 
voisins, la distance entile les deux poisitions respectives de 
ion des deux segments, i I'aide de la jbrmule de calcul de la 
dans le premieij mode de r^alfsation du proc6d6 de 



pli 5it6e 



I 



(ntre les positions respjectives de conc(jptualisation globale de 
-'voisins est inf^rieure a un seuil pr^ddfmi, en d'autres lermes 
:nts ont des sens pjoches, on regroiipc ces deux segments 
un nouveau segnient dont on determine la position de 
on globale. | | 



i la distance entre les! positions de co)icepmalisation globale 



voisins est sup6ri(pure au seuil pr^d^fini, aulrement dit si 
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ces deux se^ 
segments. 



jents ont des sens 616ign6s, on nc regroupe pas les deux 



forme et on 
que la distance 



10 global d'une pajtie voisine. 



segments voisins, jusqu'a ne 
iter at) fs de segments, on 
de texte qui sont telles 
iiceptualisation global e 

de deux portiojns de texte voisines lest sup6rieure m seuil pr6defini. En 
d'autres termesi le sens global de chapue partie du tekte est eloigne du sens 



On r6it^e T^taipe consistant i regrouper les 
plus pouvoir \fs j'egrouper. Par regroupements 

imite ainsi une pluralate de portions 
entre les positions respectives de coiJ.ce] 



Pour comparer bne question et un texb archive comiirenant une plurality de 

position de conceptualisation globalc 
dans le rep6re |;onceptuei, on compare la position d(; chacune des portions 

Iculant la distance entre ces positions, 
n texte comme pertinent si la distance entre la position de 
la question est foible. 



IS . de texte i celle de la question, en ca 
On considire i 

Tune de ses poiftions et la position de 



Bicn entendu, 
: representees cHacune 



cn 



Dans ce cas, 
' texte archivd ei 
est pertinent si 
25 : position de ruqe 



On soulignera 
d'archivage, oti 
que Ton archi\|e 
mode du pro(?|d6 
5 texte" sont deu. 



Conceiiiant 1' 
rcsultante des 
texte ou d'une 
positions des 
question, on 
plus fortes du 
mots cone 
pr6defini. On 



pourrait dfcouper la 
par sa position 



de 



question en 
conceptualis 



uite plurality dc portions 
tion globalc. 



deux les vectfeurs 
la question. On 
j|)Osition de run(? 
est 



_ comparerait deux 
ceux des portions de 
la distance entre la ■ 
des portions de la qviestion 

que, dans le troisifecne mode de realisation du proc6d.6 
archive chacune des portions d'un texte de la raSme raani^re 

d'une seule portion) dans le premier 



un texte (constitu6 
d'archivage. Finalbment, un "tex^ 
c ensembles de mots 6quivalents, 



....v. des portions d'un 
considere que le texte 
de ses portions et la 



e'* et une "portion de 



lalgorithme de composition pour la d^tennination de la 
positions de mots conceptuels d'un texte, d'un segment de 
([uestion, au lieu de faiie seulement la somme vectorielle des 
inots conceptuels du texte, du segment de texte ou de la 
pDurrait en outre amplifier les valeurs des coordonn6es les 
/ectcur rdsultant de l| somme vectorielle des positions des 
eptilels, par exemple en les multipliaiU par un coefficient 
amplifie ainsi encon; I'importance des concepts les plus 
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iraportants, aU 
d'6ventuelles 
conceptualisat: 
ainsi le bruit d 
conceptualisaiibn 



detriment des 
imbigui'tes lors de 
globale d'un tcxte 
aux coordonnees 



Afin dillustrdi: 
vectorielle de$ 
le vccteur (3,1 
mots conceptiitis 



I Dans rexemplc 
fluides", compfenait 
une question 
texte. 
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1). Afin d'obtenir 
du texte 1, on mu 
suivant les axes A; ct 



conc)jpts moins importants, afin d*6viter 
la comparaispn des vecteurs de 
et dune questjon, En fait, on r6duit 
ayimt des valcurs faibles des vecteurs de 



cette variante, applquons la au tQXte 1. Par la somme 
positions de tous les mots conceptuelsi de ce tcxte, on oblient 

a r6sultante des positions de tous les 
tiplie les coordonnees les plus fortes, 
A2, par un coe:ricient ici 6gal 4 2. La 



qui sont celled ^ 
r^sultante du dxte 1 est done le vecteur (6, 4, 1). 



didactique d6crit plus haut, la question, "la mecanique des 
peu de mots. On pourrait bie^ 6videmment prendi'C 
idontenant beaucoup p(us de mots et ionsistait meme en un 



En pratique, le rep^e conceptuel 



dimensions, et 



91 comprend Musieurs centaines de 
le dictionnaire contieijt plusieurs mill^ers de mots. 
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! 1- Proc6d6 d' 
■ - on cr6e dans 
i mots, 

; - on compare^ 
\ archiver (1.) a: 
j dans ledit rep^ 
! - on determini 
i de la portion: 
; conceptuaJi 
; archiver cette 



RE VEND 



ajrfchivage d'un texte(l) 
un repfere concepmcl 



sati )n 



15 



2- Procdde se 



20 



CATIONS 



selon lequdl; 

multidimensiorinel un dictionnaire de 



;eptuel d'au moins t ne portion du texte a 
la position de ce mot 



:haque mot cone 

i'-eux du dictionnaire ^our d6tern?iner 
et 

la resultante (Ti) des 
ie texte a archiver 

globale de la porjion de texte (I 
pjosition. 



positions dp tovis les mots conceptuels 
pour dQteiTniner la position d'une 
) dans ledit repferc et 



(1) 



on la revendication 
\ r6sultante des;i)Ositions, dans le repcjre. 
portion de texte a archiver, i chaqie 
associe d'aborq sa position dans le teis:te 



se Ion 



3' Proc6de 

determiner la; 
I portion de tc: 
i algorithme de composition 



la revendication 
resultante (Ti) des 
te a archiver (1), 



25 i 4- Proc6de 
I composition 
; mots conceptuils 



\ 5- Procede 
30 I composition 
' importants. 



; 6- Procede sel 
: resultante (Ti) 
35 ! texte a archive 



delon la revendicatitm 
cqnsiste en outre i amp 



1, dans lequel, pour determiner la 
, de tous les mots conceptuels de la 
position .de not dans le rep6re, on 
et son r6le s^Titaxique. 



1, dans lequel pour 

positions des mjots conceptuels de la 
on multiplexe jces positions pai^ un 



selon la revendication 3, dans lequel raigorithme de 
cjnsiste a faire la somnie vectorielle dis positions de tous les 
de la portion de tex tc i archiver ( 1 j . 



<^n 



; 7- Precede se 
' rep^re concept[iel 



la revendication 

des positions de tous 



L, dans loquel Dn normalise la 

les mots conceptuels de la portion de 

I 



on la revendication 
multidimensionne: 



4, dan;s Uquel I'algorithme de 
ifier rimpoftanc e des concepts les plus 



1, dans lequel] 

orthonorme. ! 



on rend le 
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;8- Proced6 
;mot i introduire 
;au rep^re con.ceptuel 
isuivant ces copcepts 
Iconceptuel, 



selicn 



^9- Proced^ 
lune analyse syr 
iextraire lesmot 



la revendication 1 
taxique de tous les 
conceptnels. 



: 10- Proc6d6 
I les mots fl^chii 
jflechie. 



15 iU-Procedi d'l 
I texte, dans 



archivage d'un texte 
lequel on archive chaque 
!la revendlcattcn 1. 



i 12- Proc6de se 
20 ;une pluralit6 ci'^ 
[conceptualisatjion 
! positions respeptives 
i dans le texte 



25 il 



3- Proc6d6 
! comparer les 
; segments voisiiJts 
iet, dans le ca;s 
: regroupe les 



dfeix 



14- Proced^ 

texte pai" regrci4pements 



: 15- Proc^d6 cj< 
I procede d'archi|vage 
; d'une question, 
j - comme pouii 
conceptuel 
i question, par 
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la revendlcation 
dans le dictionnaire, 
auxquels ce mcjt 
, on attribue 



L. dans lequel, pour chaque 

on recherche toas les concepts relatifs 
est susceptibl<[ de faire reference et, 
mot une position dans le repere 



au 



dans lequel ofi procSde a 
mbts de la portioiji de texte (1) afm d'en 



la revendication 

de la portion de tex 



ccraprenant une pluralite de portions de 
portion de texie selon le proced6 de 



on la revendication I 
segments dont on 
globale dans le 

de conceptual: 
delimiter les portiohs 



ppur 



solon 



la revendicatio 
dositions respectives 

dans le texte, on determine 
ou ladite distance 
segments en 



s^lon 



la revendication 1 
iteratifs de 



recherche parmi unc 

age de la revendic4tion 

dans lequel: 
'archivage de texte 
rnultidimensionnel d 
.c ecermination de la rejsultante 
i mots conceptu^ls de la question et 



on 



duAe 



1, dans lequel 
e i archiver (I 



on transforme 

dans leur forme non 



. 1, dans lequel dn decoupe le texte en 
cletermine les pcisitions respectives de 
conceptu€:l, et on compare les 
sation globale des segments voisins 
du texte. 



,11, dans lequel pour 

jle conceptualisation globale de deux 

la distaiice entre ces positions, 

inferieure a \xn seuil predefini, on 
formaht un nouveau segment. 



est 



, dans lequel or[ forme les portions de 
segments. j 



pluralite de tejxtes archives selon le 
1, dc ceuj^ qui traitent 



determine la ()Osition dans le rep6re 
conceptualisation globale de la 
(Q) de^ positions de tous les 
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: - on compare la position de la conceptualisation ^• 
: positions homologues des textes archives, pour 
; d'entre elles, correspondant k un textJ recherchd. 



15 



5 ' 16-Procdddselonlarevcndication 
i des concephxaJsations globales de 
; determinant, pour chaque texte, 
I respectives d^ ia question et du texte. 



10 : 17-Proced6selon la revendication 15, dans leque 

la distance entre deux positions dani le repfere cone 
scalaire desdit(js positions. 



, dans lequel 
la question et 
a distance 



globale 



de la question aux 
rletenir au moins Tune 



oh compare les positions 
les textes archives en 
entfe les deux positions 



le calcul de 

jptuel utilise Ic produit 



I 18- Procede scion la revendication 17, dans Isqiiel 
15 ; entre deux positions dans le repfeje conceptifel, k I'aide de la formule 
suivante: 



- X et Y reprds entant les deux positions, 



20 



- Djegresentaiit la distance entre les 
• <Xj^Y> repr^:sentant le produit sea 
■ llxll et ||y'||repr6sentantlesnoimesrespecjives 



deux positjons_K et Y, 
aire de ^Tet deTet 



19- PrOc6d6 St-'lon la revendicatl 
d^terminee cniie deux positions est 



01 



25 1 20- Proc^d^ SiJlon la revendication 
entre deux positions utilise le 
suivante: 



(-1 'Vf 

• <% Y> repHssentant le produit sea 
n, entier uaturel, representant 



30 



on calcule la distance 



15, dans ilequ 
ion euclidienne. 

19, dans Iqquel 
pioduit scalaire 



de X et de Y. 

el la distance 

la distance determinde 
defini par la formule 



aire de deux po|5itions 
la. dimension 



^f,mmm^m m^' — f 

comportant n iixes d'indice i avec i entier natural var iant 

- Xj et Yi representant les coordomees respective*; -^-^ 
suivant I'axe d'indice i et 

- k, representant un coefficient de pcmderation iielati 



Xet Y; 



du repfere conceptuel 

de I an, 
des positions X et Y 



a I'axe d'indice i. 
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21- Proc6d6 
normalise la rei>i 
question. 



i \ 

selon la revendicatiojn 15, dans lequel on 
sultante (5) des positions de tous les mots conceptuels de la 



22- Proced^ sei 
a une analyse 
les mots concei)tuels 



on la revendication 15, dans leque? on precede 

iyntaxique de tous les mots de la question afin d'en extxaire 



10 ; 24- Proc6d6 s 
• transforme les 



le 12/0fe/99ii9:23 M NO«H Pgr: 22/24 



i9 



elon la revendicatidn 15, dans leqi^el on 

-nots flechis de la question dans leur f|)nne non flechie. 
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PROCEDE 
RECHERCHlfe 
5 : SONT PERTffi 



•ARCHIVAGE D 
PARMI LES TE 

&NTS A L'EGARl 



ABWEGE 



ET 



TEXTES 
:TES ARCfflVES 

D'UNE que;jtion 



repere 
chaquc mot 
du dictiannai:-e 
ct on d6tcnnin{; 
de la portion 
globali 



! Proc6d6 d'arcji^ijvjigft' on cr6e dans ui 
i un dictionnaire|de mots, on compare 
! portion du tejJte i archiver k ceuj: 
: position de ce |not dans ledit rep^e 
; positions de toijs les mots conceptuels 
j determiner la position d'une conceptialisation 
I dans ledit rep^rp et archiver cette position 
iProc6d6 de reciherch^r on determine' 
IS . •mul.tidimensionpld'une conceptual: 

compai-e la.po5|ition de la conceptulalisation 
ipositions homqlogues des textes archives 
id'entre elles, coi[respondant i un texte 



20 iFigure unique 



concephiel multidimensionnel 
conjceptuel d'au moins une 
pour d6tei7niner la 
la resultante (Ti) des 
texte i archiver pour 
de la portion de texte 



ce 



la position dan 
isation globale 
globalle 
pour rqtenir 
recherche. 



PROCEDE DE 
, DE CEUX QUI 



5 le repere conceptuel 
de la question, et on 
de la question aux 
au moins Tune 



j 



